Evaluación de agentes interactivos con un juez en línea generador de situaciones
Descubre el innovador método de juez en línea para evaluar agentes sociales generando situaciones, mejorando cobertura y fiabilidad.
Descubre el innovador método de juez en línea para evaluar agentes sociales generando situaciones, mejorando cobertura y fiabilidad.
Descubre MiroBench, un benchmark que evalúa si los agentes de IA replican fielmente las dinámicas de discusiones reales en Reddit. ¿Son realmente realistas?
Descubre cómo MASS, un agente de simulación social con memoria, mejora la creatividad y el insight en la generación de papers de ciencias sociales.
Descubre cómo el marco TBS separa el razonamiento privado de la expresión pública en simulaciones multiagente, analizando la dinámica del silencio.